我们提出了streamDeq,这是一种以最小为每片计算的视频中框架表示的方法。与传统方法至少随着网络深度线性线性增长的常规方法相反,我们旨在以连续的方式更新表示形式。为此,我们利用最近出现的隐式层模型,该模型通过解决固定点问题来扩展图像的表示。我们的主要见解是利用视频的缓慢变化,并使用先前的框架表示作为每个帧的初始条件。该方案有效地回收了最近的推理计算,并大大减少了所需的处理时间。通过广泛的实验分析,我们表明StreamDeq能够在几个帧时间内恢复近乎最佳的表示形式,并在整个视频持续时间内保持最新的表示。我们在视频语义细分和视频对象检测方面进行的实验表明,StreamDeq以基线(标准MDEQ)的准确度达到了准确性,而$ 3 \ times $ $ abter $ abter的$ 3。项目页面可在以下网址获得:https://ufukertenli.github.io/streamdeq/
translated by 谷歌翻译
就像其他少量学习问题一样,很少拍摄的细分旨在最大限度地减少手动注释的需求,这在分割任务中特别昂贵。即使少量拍摄设置降低了新型测试类的这种成本,仍然需要注释培训数据。为了减轻这种需求,我们提出了一种自我监督的培训方法,用于学习几次射门分割模型。我们首先使用无监督的显着性估计来获得图像上的伪掩码。然后,我们将在不同的伪掩模的不同分割和增强图像的不同分裂上培训一个简单的原型模型。我们广泛的实验表明,该方法达到了有希望的结果,突出了自我监督培训的潜力。据我们所知,这是第一个解决自然图像上无监督的少量分割问题的第一项工作。
translated by 谷歌翻译
图像标题生成是视觉和语言域交集中最具挑战性的问题之一。在这项工作中,我们提出了一个现实的字幕任务,其中输入场景可能包含没有相应的视觉或文本培训示例的视觉对象。对于此问题,我们提出了一种检测驱动的方法,该方法由单阶段的广义零弹声检测模型组成,以识别和本地化可见和看不见的类的实例,以及将检测转换为句子的基于模板的字幕模型。为了改善广泛的零射击检测模型,该模型为字幕提供了必不可少的信息,我们在班级到类的语义相似性方面定义了有效的课堂表示,并利用其特殊结构来构建有效的看不见/可见的类置信度得分校准机制。我们还提出了一个新颖的评估指标,该指标通过分别测量生成句子的视觉和非视觉内容来为字幕输出提供其他见解。我们的实验强调了在提出的零射击设置中研究字幕的重要性,并验证提出的检测驱动的零射击字幕方法的有效性。
translated by 谷歌翻译
深度MRI重建通常是使用有条件的模型进行的,该模型将其映射到完全采样的数据作为输出中。有条件的模型在加速成像运算符的知识下执行了脱氧,因此在操作员的域转移下,它们概括了很差。无条件模型是一种强大的替代方法,相反,它可以学习生成图像先验,以提高针对领域转移的可靠性。鉴于它们的高度代表性多样性和样本质量,最近的扩散模型特别有希望。然而,事先通过静态图像进行预测会导致次优性能。在这里,我们提出了一种基于适应性扩散的新型MRI重建Adadiff。为了启用有效的图像采样,引入了一个可以使用大扩散步骤的对抗映射器。使用受过训练的先验进行两阶段的重建:一个快速扩散阶段,产生初始重建阶段,以及一个适应阶段,其中更新扩散先验以最大程度地减少获得的K空间数据的重建损失。关于多对比的大脑MRI的演示清楚地表明,Adadiff在跨域任务中的竞争模型以及域内任务中的卓越或PAR性能方面取得了出色的性能。
translated by 谷歌翻译
在过去的几年里,几年枪支学习(FSL)引起了极大的关注,以最大限度地减少标有标记的训练示例的依赖。FSL中固有的困难是处理每个课程的培训样本太少的含糊不清的歧义。为了在FSL中解决这一基本挑战,我们的目标是培训可以利用关于新颖类别的先前语义知识来引导分类器合成过程的元学习模型。特别是,我们提出了语义调节的特征注意力和样本注意机制,估计表示尺寸和培训实例的重要性。我们还研究了FSL的样本噪声问题,以便在更现实和不完美的环境中利用Meta-Meverys。我们的实验结果展示了所提出的语义FSL模型的有效性,而没有样品噪声。
translated by 谷歌翻译